从演示中学习(LFD)可以是通过使“学生”代理人从最有经验的“老师”代理商的演示中学习,而不是同时培训他们的政策,从而是一种用类似代理培训系统的有效方法。但是,当代理能力存在差异时,例如发散的执行力或关节角度约束时,天真地复制了符合学生能力的范围的示例,可以限制有效的学习。我们提出了一个专门针对教师和学生代理人之间异质性挑战的教师学习框架。我们的框架是基于“惊喜”的概念,其灵感来自于其在稀疏奖励环境中探索激励中的应用。感到惊讶,以使教师能够检测并适应自身与学生之间的差异。通过重点关注对环境的惊喜,同时最大程度地减少了学生对示威活动的惊喜,教师代理人可以有效地根据学生的特定能力和约束来量身定制演示。我们通过在稀疏回报环境中证明学生在控制任务中的学习中的改进来验证我们的方法。关键字:从示范,惊喜,异质代理人,教学代理人中学习
![用篡改...arxiv:2405.14199v1 [cs.ro] 2024年5月23日PDF文件第1页](/bimg/b/b4aa4a24aa7a461cb5556996a0e15b8e61b017f4.webp)
![用篡改...arxiv:2405.14199v1 [cs.ro] 2024年5月23日PDF文件第2页](/bimg/b/b692b6672250d7947860e763ab6f62e23573a681.webp)
![用篡改...arxiv:2405.14199v1 [cs.ro] 2024年5月23日PDF文件第3页](/bimg/f/ff4d7669e434dea0a43ee4e2272969c8079fe352.webp)
![用篡改...arxiv:2405.14199v1 [cs.ro] 2024年5月23日PDF文件第4页](/bimg/4/420aa25d748f74983b0ede9467089c95d631f661.webp)
![用篡改...arxiv:2405.14199v1 [cs.ro] 2024年5月23日PDF文件第5页](/bimg/1/1a3deb879e3e703b0d8edef2a3b378b90758fde4.webp)
